การเปลี่ยนผ่านจากข้อความทั่วไปไปสู่แนวทางใหม่

การปรับแต่งประสิทธิภาพผ่านการฝึกแบบเฉพาะเจาะจงและสถาปัตยกรรมเฉพาะทาง

1. นอกเหนือจากคำแนะนำทั่วไป

แม้ว่าการใช้ "Few-Shot" จะเป็นจุดเริ่มต้นที่ทรงพลัง แต่การขยายโซลูชันด้านปัญญาประดิษฐ์มักจำเป็นต้องก้าวไปสู่ การฝึกแบบควบคุม (Supervised Fine-Tuning). กระบวนการนี้จะบูรณาการความรู้หรือพฤติกรรมเฉพาะลงไปในน้ำหนักของโมเดลโดยตรง

ข้อสรุป: คุณควรทำการฝึกเฉพาะเจาะจงเพียงเมื่อการปรับปรุงคุณภาพของคำตอบและการลดต้นทุนจำนวนโทเคนมากกว่าความพยายามในการคำนวณและเตรียมข้อมูลอย่างมากที่จำเป็น

$ต้นทุน = จำนวนโทเคน \times อัตรา$

2. การปฏิวัติของโมเดลภาษาขนาดเล็ก (SLM)

โมเดลภาษาขนาดเล็ก (SLMs) เป็นเวอร์ชันที่มีขนาดเล็กลงอย่างมีประสิทธิภาพของโมเดลขนาดใหญ่ (เช่น ฟี-3.5, มิสทรัล สโมล) ซึ่งถูกฝึกบนข้อมูลที่คัดสรรมาอย่างดีและมีคุณภาพสูง

ข้อเสียเปรียบ: โมเดลขนาดเล็กให้ความหน่วงเวลาต่ำลงอย่างมีนัยสำคัญ และสามารถใช้งานได้ที่ขอบ (edge deployment) หรือทำงานบนอุปกรณ์ท้องถิ่น แต่ต้องแลกมาด้วยความฉลาดที่ครอบคลุมและเหมือนมนุษย์ซึ่งพบได้ในโมเดลขนาดใหญ่

3. สถาปัตยกรรมเฉพาะทาง

ผสมผสานผู้เชี่ยวชาญ (MoE): เทคนิคที่ช่วยขยายขนาดโมเดลโดยรวม ขณะที่ยังคงรักษาประสิทธิภาพด้านการคำนวณระหว่างการประมวลผล ซึ่งจะมีเพียงชุดย่อยของ "ผู้เชี่ยวชาญ" เท่านั้นที่ถูกเปิดใช้งานสำหรับโทเคนใดๆ (เช่น ฟี-3.5-MoE)
หลายรูปแบบ (Multimodality): สถาปัตยกรรมที่ออกแบบมาเพื่อประมวลผลข้อความ รูปภาพ และบางครั้งก็เสียงพร้อมกัน ขยายขอบเขตการใช้งานออกไปนอกเหนือจากการสร้างข้อความ (เช่น ลามา 3.2)

ลำดับชั้นของประสิทธิภาพ

ควรพยายามใช้ การสร้างคำถาม (Prompt Engineering) เป็นอันดับแรก หากไม่ได้ผล ให้ดำเนินการใช้ RAG (การสร้างข้อความเสริมด้วยการดึงข้อมูล) ใช้ การฝึกเฉพาะเจาะจง เพียงในขั้นตอนสุดท้ายของการปรับแต่งขั้นสูง

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

Question 1

When does the course recommend proceeding with fine-tuning over prompt engineering?

When the benefits in quality and cost (reduced token usage) outweigh compute effort.

Whenever you need the model to sound more human-like.

As the very first step before trying RAG or prompt engineering.

Only when deploying to an edge device.

Question 2

Which model architecture allows scaling model size while maintaining computational efficiency?

Supervised Fine-Tuning (SFT)

Retrieval-Augmented Generation (RAG)

Mixture of Experts (MoE)

Multimodality

Challenge: Edge Deployment Strategy

Apply your knowledge to a real-world scenario.

You need to deploy a multilingual translation tool that runs locally on a laptop with limited GPU resources.

Task 1

Select the appropriate model family and tokenizer for this multilingual, low-resource task.

Solution:
Mistral NeMo with the Tekken Tokenizer. It is optimized for multilingual text and fits within SLM constraints.

Task 2

Define the deployment framework for high-performance local inference.

Solution:
Use ONNX Runtime or Ollama for local execution to maximize hardware acceleration on the laptop.